home *** CD-ROM | disk | FTP | other *** search
/ Creative Computers / Creative Computers CD-ROM, Volume 1 (Legendary Design Technologies, Inc.)(1994).iso / text / info / 68040_specs.pp / 68040_specs
Text File  |  1994-11-17  |  12KB  |  279 lines

  1. Captured from the bix network:
  2.  
  3. ==========================
  4. microbytes/features #243, from microbytes, 11743 chars, Mon Jan 22 16:33:53 1990
  5. --------------------------
  6. TITLE:  FIRST IMPRESSION: Motorola's New 68040 Microprocessor
  7.  
  8.  
  9. by Tom Thompson
  10.  
  11.  
  12.  
  13. ---------------------------
  14.  
  15. This new CISC microprocessor
  16.  
  17. offers RISC performance
  18.  
  19. ---------------------------
  20.  
  21.  
  22.  
  23.  
  24.  
  25. Motorola has officially unwrapped its newest 32-bit
  26. microprocessor, the 68040. Manufactured with 0.8-micron
  27. high-speed CMOS technology, the 68040 packs 1.2 million
  28. transistors on a single silicon die. With 900,000 extra
  29. transistors to work with over the 300,000 transistors in a
  30. 68000 processor, the 68040's designers added new features
  31. and boosted performance. New features include the following:
  32.  
  33.  
  34.  
  35. -- Optimized 68030 integer unit. While retaining object-code
  36. compatibility with previous 68000-family processors, the IU
  37. has been optimized to execute instructions in fewer clock
  38. cycles (i.e., run faster). The claimed boost in performance is
  39. three times that of a 68030.
  40.  
  41. -- Integral FPU. The 68020 and 68030 require external FPU
  42. coprocessor chips to handle floating-point math. The 68040,
  43. however, has an FPU built into it, giving it the power to do
  44. serious number crunching. The FPU's data types are
  45. compatible with the ANSI/IEEE 754 standard for binary
  46. floating-point math, and its instruction set is object
  47. code-compatible with Motorola's 68881/68882 FPUs. Like
  48. the IU, the 68040's on-chip FPU has been optimized to
  49. execute frequently used instructions using fewer clock
  50. cycles. The claimed performance boost is 10 times that of a
  51. 68882.
  52.  
  53. -- Large caches. Processor accesses to the system bus are
  54. minimized by storing the most recently used set of
  55. instructions or data in on-chip, 4K-byte caches. Both caches
  56. operate independently but can be accessed at the same time.
  57. Bus snoop logic is used to maintain cache coherency (i.e., it
  58. ensures that the cache's contents match those parts of
  59. memory corresponding to the cache). The bus snooper's design
  60. is fined-tuned to support multiprocessor systems where one
  61. or more bus masters or 68040s might share the same section
  62. of memory.
  63.  
  64. -- Separate memory units for instructions and data. Each
  65. memory unit consists of a memory management unit, a cache
  66. controller, and bus snoop logic. The MMUs use a subset of the
  67. 68030's MMU instruction set. Both memory units function
  68. independently of each other to improve processor throughput.
  69.  
  70.   The 68040 ships with an initial clock speed of25 MHz;
  71. higher speeds are to be available in the future, Motorola says.
  72. The 68040 comes in a 179-pin grid-array package. With the
  73. elimination of coprocessor function lines (now that the MMU
  74. and FPU are consolidated onto the processor) and the addition
  75. of snoop control lines, the 68040 is not pin-compatible with
  76. the 68030.
  77.  
  78. Because of the 68040's software compatibility with its
  79. predecessors, it can tap into the existing software base of
  80. 680x0 applications. It does this not only while eliminating a
  81. component (the FPU) from a computer's design, but also while
  82. improving performance. In fact, the 68040 executes
  83. instructions on the average of nearly once per clock cycle --
  84. the same as a RISC processor.
  85.  
  86.  
  87.  
  88. Fine-Tuned for Performance
  89.  
  90. The 68040 was built on the firm foundation of its
  91. predecessors. The design team used the experience garnered
  92. from developing earlier processors to aid in optimizing the
  93. throughput of the 040.
  94.  
  95. The 040 was designed from the ground up, Motorola engineers
  96. said. It incorporates a high degree of parallelism using a
  97. number of internal buses. An internal Harvard architecture
  98. gives the processor full access to both instructions and data.
  99. Both the IU and FPU have separate pipelines and can operate
  100. concurrently. For example, the FPU can perform
  101. floating-point instructions independently of the IU. Each
  102. stream (instructions or data) has its own dedicated cache and
  103. MU that function independently of each other. A smart bus
  104. controller assigns priorities to bus traffic to and from the
  105. caches.
  106.  
  107. There were several key areas where Motorola was able to
  108. boost performance. The first was in reducing the clock cycles
  109. needed to execute certain instructions. The next was to
  110. ensure that the processor funnels instructions and data into
  111. itself quickly and constantly, lest it stall while waiting on
  112. information. The processor then gets its results back into the
  113. system without interfering with incoming information.
  114. Finally, as if this wasn't enough, the processor stays off the
  115. system bus to a greater extent than is the case with other
  116. processor designs. This lets DMA transfers and other bus
  117. masters have use of it.
  118.  
  119.  
  120.  
  121. CISC with the Speed of RISC
  122.  
  123. The IU was optimized so that high-usage instructions execute
  124. in fewer clock cycles, particularly branch instructions.
  125. Motorola said it performed thousands of code traces using
  126. real-world applications to determine which instructions
  127. were used most often.The IU consists of 6 stages: instruction
  128. prefetch, decode, effective address calculation, operand
  129. fetch, execution, and writeback (i.e., the result is written to
  130. either a register or to memory). Each stage works
  131. concurrently on the instruction pipeline. Dual prefetch and
  132. decode units deal with the branch instructions: One set
  133. processes the instruction taken on the branch, and another
  134. processes the intruction not taken. In this way, no matter
  135. what the outcome, the IU has the net instruction decoded and
  136. ready to go without seriously disrupting the pipeline. This
  137. complex design has a big payoff: Motorola has determined
  138. that the average instruction takes 1.3 clock cycles to
  139. execute. The ability to execute an instruction once per clock
  140. cycle is the performance edge of RISC processors --  yet the
  141. 68040's IU accomplishes the same goal while executing
  142. complex-instruction-set computer (CISC) instructions.
  143.  
  144. The FPU adds 11 registers to the 68040 register set: Eight of
  145. them are 80-bit floating-point registers, and three are
  146. status, control, and instruction address registers. The FPU
  147. has a three-stage execution unit, and, like the IU, each stage
  148. operates concurrently. Load and store instructions (FMOVE)
  149. can be performed during other arithmetic operations, and a
  150. 64- by 8-bit hardware multiplication unit speeds many
  151. calculations. However, the FPU only implements a subset of
  152. the 68882 instructions on-chip. The transcendental
  153. (trigonometric and exponential) functions are emulated in
  154. software via a software trap. But Motorola claims that even
  155. these instructions should execute 25% to 100% faster on 
  156. 25-MHz 68040 than on a 33-MHz 68882 FPU.
  157.  
  158.  
  159.  
  160. Boosting Throughput
  161.  
  162. In the area of throughput, each stream is managed by a
  163. separate memory unit that uses an MMU for
  164. logical-to-physical address translations during bus accesses.
  165. These MMUs support demand-paged virtual memory. Both
  166. MMUs have a four-way set-associative address translation
  167. cache (ATC) with 4 entries (versus 22 entries for the 68030).
  168. The ATCs reduce processor overhead by storing the most
  169. recent address translations. When an address translation is
  170. required, the ATC is searched, and if it contains the address,
  171. it is used immediately. Otherwise, a combination of
  172. high-speed hardware logic and microcode searches the
  173. translation tables located in main memory.
  174.  
  175. Like the PU, these MMUs implement a subset of the 68030's
  176. MMU instruction set. Gone are the PLOAD and PMOVE
  177. instructions, because enhanced existing instructions made
  178. them superfluous. Also, only 2 memory page sizes are
  179. supported, 4K and 8K bytes, whereas the 68030 MMU
  180. supported 8 page sizes ranging from 256 bytes to 32K bytes.
  181. A design trade-off was made here: A performance gain was
  182. possible by supporting only the 2 most common page sizes. In
  183. any case, this change impacts only operating-system code,
  184. since MMU instructions aren't normally used by applications.
  185.  
  186. The two on-chip 4K caches improve processor throughput in 2
  187. ways: They keep the pipelines filled and minimize system bus
  188. accesses. To see how this is done, you must examine the
  189. structure of the cache. Each is a four-way set-associative
  190. cache composed of 64 sets of four lines. A line consists of 4
  191. longwords, or 16 bytes. Cache lines are read or written
  192. rapidly using burst